Object instance segmentation is a key challenge for indoor robots navigating cluttered environments with many small objects. Limitations in 3D sensing capabilities often make it difficult to detect every possible object. While deep learning approaches may be effective for this problem, manually annotating 3D data for supervised learning is time-consuming. In this work, we explore zero-shot instance segmentation (ZSIS) from RGB-D data to identify unseen objects in a semantic category-agnostic manner. We introduce a zero-shot split for Tabletop Objects Dataset (TOD-Z) to enable this study and present a method that uses annotated objects to learn the ``objectness'' of pixels and generalize to unseen object categories in cluttered indoor environments. Our method, SupeRGB-D, groups pixels into small patches based on geometric cues and learns to merge the patches in a deep agglomerative clustering fashion. SupeRGB-D outperforms existing baselines on unseen objects while achieving similar performance on seen objects. Additionally, it is extremely lightweight (0.4 MB memory requirement) and suitable for mobile and robotic applications. The dataset split and code will be made publicly available upon acceptance.
translated by 谷歌翻译
Recent 3D-aware GANs rely on volumetric rendering techniques to disentangle the pose and appearance of objects, de facto generating entire 3D volumes rather than single-view 2D images from a latent code. Complex image editing tasks can be performed in standard 2D-based GANs (e.g., StyleGAN models) as manipulation of latent dimensions. However, to the best of our knowledge, similar properties have only been partially explored for 3D-aware GAN models. This work aims to fill this gap by showing the limitations of existing methods and proposing LatentSwap3D, a model-agnostic approach designed to enable attribute editing in the latent space of pre-trained 3D-aware GANs. We first identify the most relevant dimensions in the latent space of the model controlling the targeted attribute by relying on the feature importance ranking of a random forest classifier. Then, to apply the transformation, we swap the top-K most relevant latent dimensions of the image being edited with an image exhibiting the desired attribute. Despite its simplicity, LatentSwap3D provides remarkable semantic edits in a disentangled manner and outperforms alternative approaches both qualitatively and quantitatively. We demonstrate our semantic edit approach on various 3D-aware generative models such as pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D and VolumeGAN, and on diverse datasets, such as FFHQ, AFHQ, Cats, MetFaces, and CompCars. The project page can be found: \url{https://enisimsar.github.io/latentswap3d/}.
translated by 谷歌翻译
随着深度学习的出现,估计来自单个RGB图像的深度最近受到了很多关注,能够赋予许多不同的应用,从用于计算电影的机器人的路径规划范围。尽管如此,虽然深度地图完全可靠,但对象不连续的估计仍然远非令人满意。这可以有助于卷积运营商自然地聚集在对象不连续性的特征的事实中,导致平滑的过渡而不是明确的边界。因此,为了规避这个问题,我们提出了一种新颖的卷积运营商,明确地定制,以避免不同对象部件的特征聚合。特别地,我们的方法基于借助于超像素估计每个部分深度值。所提出的卷积运算符,我们将“实例卷积”,然后仅在估计的超像素的基础上单独考虑每个对象部分。我们对NYUV2以及IBIMS数据集的评估清楚地展示了在估计遮挡边界周围估算深度的经典卷积上的实例卷积的优越性,同时在其他地方产生了可比结果。代码将在接受时公开提供。
translated by 谷歌翻译
零件代表不同对象的几何和语义相似性的基本单位。我们争辩说,部分知识应与观察到的对象课程中有款组合。对此,我们将3D组成零射击学习作为从看作识的零件泛化的问题,从而看成了语义分割。我们通过将任务与所提出的组成部分数据集进行基准测试,提供结构化研究。该数据集是通过处理原始PartNet来创建的,以最大化不同对象的部分重叠。现有点云部分段方法未能在此设置中概括到未遵守的对象类。作为解决方案,我们提出了分解共识,其将零件分割网络与部分评分网络相结合。我们方法的关键直觉是某些部件的分割掩码应该具有与其部分分数分开的零件分数的共识。在生成最合适的分割掩模之前在每个对象部分中定义的不同部分组合的两个网络原因。我们展示了我们的方法允许组成零射分段和广义零拍分类,并在两个任务中建立最先进的状态。
translated by 谷歌翻译
狗主人通常能够识别出揭示其狗的主观状态的行为线索,例如疼痛。但是自动识别疼痛状态非常具有挑战性。本文提出了一种基于视频的新型,两流深的神经网络方法,以解决此问题。我们提取和预处理身体关键点,并在视频中计算关键点和RGB表示的功能。我们提出了一种处理自我十分和缺少关键点的方法。我们还提出了一个由兽医专业人员收集的独特基于视频的狗行为数据集,并注释以进行疼痛,并通过建议的方法报告良好的分类结果。这项研究是基于机器学习的狗疼痛状态估计的第一批作品之一。
translated by 谷歌翻译
深度学习培训是一个昂贵的过程,可广泛使用GPU,但并非所有模型训练都饱和现代强大的GPU。 Multi-Instance GPU(MIG)是NVIDIA引入的一项新技术,可以分区GPU,以更好地适合不需要所有内存和计算完整GPU的资源的工作负载。在本文中,我们研究了在深度学习工作负载下的三种尺寸工作负载下的MIG启用A100 GPU的性能,这些尺寸重点是使用Resnet模型进行图像识别培训。当在GPU允许的各种MIG实例上孤立运行时,我们还研究了这些工作负载的行为,此外还可以在同一GPU共同列入同类的同质实例上并行运行它们。我们的结果表明,当工作负载太小而无法孤立地利用整个GPU时,使用MIG可以显着改善GPU的利用率。通过并行训练多个小型型号,尽管每单位时间的时间增加了,但每单位时间的GPU可以执行更多的工作,导致$ \ sim $ \ sim $ 3倍吞吐量。相比之下,对于已经很好地利用了整个GPU的中型和大型工作量,MIG仅提供边际性能的改进。然而,我们观察到,使用单独的MIG分区并行的训练模型不会表现出强调具有MIG在现代GPU上具有功能的价值的干扰。
translated by 谷歌翻译
过场动物是许多视频游戏不可或缺的一部分,但是它们的创作既昂贵又耗时,并且需要许多游戏开发人员缺乏的技能。尽管AI已被利用为半自动过场动画的生产,但结果通常缺乏专业人类董事特征的样式的内部一致性和统一性。我们用Cine-AI克服了这一缺点,Cine-AI是一种开源程序性摄影工具集,能够以杰出的人类导演的风格生成游戏中过场动画。 Cine-AI在流行的游戏引擎团结中实现,具有新颖的时间轴和情节板界面,用于设计时间操纵,并结合运行时摄影自动化。通过两项使用定量和定性措施的用户研究,我们证明了Cine-AI产生过过过场动物,这些过场动物与目标主管正确关联,同时提供高于平均水平的可用性。我们的导演模仿数据集可公开使用,可以由用户和电影爱好者扩展。
translated by 谷歌翻译
许多软件系统,例如在线社交网络,使用户能够共享有关自己的信息。尽管共享的行动很简单,但它需要关于隐私的精心思考过程:与谁共享,分享谁以及出于什么目的。考虑到这些内容的每个内容都很乏味。解决此问题的最新方法可以建立个人助理,可以通过学习随着时间的推移而了解私人的内容,并推荐诸如私人或公共的隐私标签,以便用户认为共享的个人内容。但是,隐私本质上是模棱两可和高度个人化的。推荐隐私决策的现有方法不能充分解决隐私的这些方面。理想情况下,考虑到用户的隐私理解,个人助理应该能够根据给定用户调整其建议。此外,个人助理应该能够评估其建议何时不确定,并让用户自己做出决定。因此,本文提出了一个使用证据深度学习的个人助理来根据其隐私标签对内容进行分类。个人助理的一个重要特征是,它可以明确地在决策中对其不确定性进行建模,确定其不知道答案,并在不确定性高时委派提出建议。通过考虑用户对隐私的理解,例如风险因素或自己的标签,个人助理可以个性化每个用户的建议。我们使用众所周知的数据集评估我们建议的个人助理。我们的结果表明,我们的个人助理可以准确地确定不确定的情况,将其个性化满足用户的需求,从而帮助用户良好地保护其隐私。
translated by 谷歌翻译
基于最新的激光痛的3D对象检测方法依赖于监督学习和大型标记数据集。但是,注释LiDAR数据是资源消耗的,仅取决于监督的学习限制了训练有素的模型的适用性。自我监督的培训策略可以通过学习下游3D视觉任务的通用点云主链模型来减轻这些问题。在此背景下,我们显示了自我监督的多帧流程表示与单帧3D检测假设之间的关系。我们的主要贡献利用了流动和运动表示,并将自我保护的主链与有监督的3D检测头结合在一起。首先,自我监督的场景流估计模型通过循环一致性进行了训练。然后,该模型的点云编码器用作单帧3D对象检测头模型的骨干。第二个3D对象检测模型学会利用运动表示来区分表现出不同运动模式的动态对象。 Kitti和Nuscenes基准的实验表明,提出的自我监管的预训练可显着提高3D检测性能。 https://github.com/emecercelik/ssl-3d-detection.git
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译